8
votes

Obtenir des données historiques de Twitter

Pour un projet de recherche, j'aimerais avoir les 3 derniers mois de messages Twitter. Des défis techniques de côté, est-ce possible? En utilisant une sorte de mécanisme de vote lent pour maintenir le limiteur de taux à la baie?

Les clients de l'API Twitter "Les clients peuvent demander jusqu'à 3 200 statuts via la page et les paramètres de comptage pour les API de repos de timeline" sont-ils par heure? Par jour? ou ... jamais?

Toute suggestion? Serait-il même théoriquement possible? Quelqu'un a-t-il fait quelque chose de similaire avant?

merci! Marco


7 Réponses :


3
votes

Vous pouvez utiliser l'API de recherche, ne pas lui donner une recherche, renvoyer le maximum de 100 par page, puis terminé chaque page deux fois par minute (120 fois une heure - 30 fois inférieure à la limite de taux). Cependant, si mes mathématiques sont correctes, cela pourrait éventuellement vous donner 720 000 tweets une heure ..... Le problème est que Twitter a ajouté environ 1,75 milliard de tweets au cours des 3 derniers mois. Donc, si mes mathématiques sont correctes, cela vous prendrait 2361 jours ou 6 ans pour compléter cela.

Vous pouvez poser cette question sur la conversation de développement Twitter sur Google Groupes ou contactez Twitter pour obtenir la liste blanche afin que vous puissiez gagner jusqu'à 20 000 demandes une heure.

Personnellement, je ne pense pas que ce soit possible.


2 commentaires

Donc, dans ce cas, il est plus utile que possible et facteur dans le pourcentage estimé qui n'est pas largué? Je suis blanchi, alors cela prendrait probablement environ 20 jours, alors si j'aimerais tous les obtenir ... en théorie.


Je crois que l'API de recherche ne sauve que 6 à 8 jours de données.



6
votes

Twitter ne fait notoirement pas de tweets "disponibles" de plus de trois semaines. Dans certains cas, vous ne pouvez obtenir qu'une semaine. Vous ferez mieux de stocker des tweets pour les trois prochains mois. Beaucoup de doute à juste titre s'ils sont même persistés par Twitter.

Vous recherchez n'importe quel tweets? Si tel est le cas, consultez le Statut / échantillon méthode. L'API Streaming utilise des prises HTTP persistantes qui peuvent être une douleur à programmer, mais c'est assez gracieux lorsque vous le souhaitez. Je vous recommanderais de mettre en place un petit script pour jeter des tweets à partir d'état / d'échantillon dans une DB. Vous devriez avoir une tonne de données après quelques jours seulement.


3 commentaires

D'accord sur le fait que vous ne pouvez pas obtenir de nouvelles données, mais je ne pense que personne ne doutons que Twitter archivait chaque tweet dernier, serait insensé pour ne pas le faire.


Que voulez-vous dire par beaucoup de doute à juste titre s'il est même persisté par Twitter ? Les tweets montrent toujours sur des profils de plus de 3 semaines n'utilisant pas l'API. Ou suis-je mal compris que vous


@Jacknicholson Les tweets sont disponibles, mais pas sous la forme indexée, car ils apparaissent sur votre maison ou votre flux de hashtag.



1
votes

DataSift affirme avoir une API de données historiques Twitter à venir prochainement, vous pouvez vous inscrire pour être averti lors de sa disponibilité ici .


0 commentaires

0
votes

Cela n'a peut-être pas existé lorsque vous avez posé la question de la question, mais l'API "PeopleBrowsR" est parfaite pour cela et vous pouvez remonter 1400 jours avec un seul appel API: https://developer.peoplebrowsr.com/pb

espère que cela aide!


0 commentaires

0
votes

Le trou de serrure peut vous procurer des tweets historiques dans XLS ou les présenter dans un tableau de bord visuel. Les échantillons de prévisualisation que quelques tweets les plus récents, vous pouvez toutefois demander des données historiques si vous les écrivez.

voir: http://keyhole.co/conversation_tracking


0 commentaires

0
votes

Vous pouvez lire les données historiques Twitter à l'aide de l'outil Historic PowerRackTrack de GNIP. Il vous donnera accès à toutes les données Twitter depuis le premier tweet et c'est équitablement c'est un outil très simple.


0 commentaires

-2
votes

Vous pouvez obtenir des estimations gratuites pour la portée et les coûts de données à l'aide d'un service construit par ma société appelée Sifter . Si vous décidez d'acheter accès aux données, il sera disponible via notre plate-forme de texte Analytics DiscoverText , où vous pouvez rechercher, filtrer , Duplicate, cluster, code humain et classifier les données.


0 commentaires